#tensor core

Rendimiento y optimización de modelos de difusión 3D en GPU

Descubre cómo la optimización con TF32 y layout channels-last mejora hasta 100x el rendimiento de modelos de difusión 3D en GPU NVIDIA, sin perder calidad.

2026-06-19 · 1 min

Optimización de modelos generativos de difusión 3D en GPU

Descubre cómo optimizar modelos de difusión 3D en GPU, reduciendo hasta 100x ciclos SM y aumentando Tensor Core 10x, sin pérdida de calidad.

2026-06-19 · 3 min

APEX4: Inferencia eficiente de LLM con W4A4 puro mediante reequilibrio de cómputo intra-SM

Descubre cómo APEX4 optimiza la inferencia de LLMs con cuantización W4A4 pura, logrando hasta 2.09x de aceleración en GPUs como RTX 3090 y A40.

2026-06-09 · 2 min